Statistical analysis of the performance of four Apache Spark ML algorithms

نویسندگان

چکیده

Feature selection (FS) techniques generally require repeatedly training and evaluating models to assess theimportance of each feature for a particular task. However, due the increasing size currently availabledatabases, distributed processing has become necessity many tasks. In this context, Apache SparkML library is one most widely used libraries performing classification other tasks with largedatasets. Therefore, knowing both predictive performance efficiency its main algorithms beforeapplying FS technique crucial planning computations saving time. work, comparativestudy four Spark ML carried out, statistically measuring execution times andpredictive power based on number attributes from colon cancer database. Results were analyzed, showing that, although Random Forest Na¨ıve Bayes are shortest times, Support Vector Machine obtains best power. The study these interesting as they applied in different problems, such pathologies epigenomic data, image classification, prediction computer attacks network security among others.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

the analysis of the role of the speech acts theory in translating and dubbing hollywood films

از محوری ترین اثراتی که یک فیلم سینمایی ایجاد می کند دیالوگ هایی است که هنرپیش گان فیلم میگویند. به زعم یک فیلم ساز, یک شیوه متأثر نمودن مخاطب از اثر منظوره نیروی گفتارهای گوینده, مثل نیروی عاطفی, ترس آور, غم انگیز, هیجان انگیز و غیره, است. این مطالعه به بررسی این مسأله مبادرت کرده است که آیا نیروی فراگفتاری هنرپیش گان به مثابه ی اعمال گفتاری در پنج فیلم هالیوودی در نسخه های دوبله شده باز تولید...

15 صفحه اول

analysis of power in the network society

اندیشمندان و صاحب نظران علوم اجتماعی بر این باورند که مرحله تازه ای در تاریخ جوامع بشری اغاز شده است. ویژگیهای این جامعه نو را می توان پدیده هایی از جمله اقتصاد اطلاعاتی جهانی ، هندسه متغیر شبکه ای، فرهنگ مجاز واقعی ، توسعه حیرت انگیز فناوری های دیجیتال، خدمات پیوسته و نیز فشردگی زمان و مکان برشمرد. از سوی دیگر قدرت به عنوان موضوع اصلی علم سیاست جایگاه مهمی در روابط انسانی دارد، قدرت و بازتولید...

15 صفحه اول

the effects of planning on accuracy and complexity of iranian efl students’ written narrative task performance

this study compared the different effects of form-focused guided planning vs. meaning-focused guided planning on iranian pre-intermediate students’ task performance. the study lasted for three weeks and concentrated on eight english structures. forty five pre-intermediate iranian students were randomly assigned to three groups of guided planning focus-on-form group (gpfg), guided planning focus...

15 صفحه اول

the effects of time planning and task complexity on accuracy of narrative task performance

هدف اصلی این تحقیق بررسی تاثیر برنامه ریزی زمانی، هم چنین افزایش میزان پیچیدگی تکالیف در نظر گرفته شده بصورت همزمان، بر دقت و صحت و پیچیدگی عملکرد نوشتاری زبان آموزان می باشد. بدین منظور، 50 نفر از دانش آموزان دختر در رده ی سنی 16 الی 18 سال به عنوان شرکت کنندگان در این زمینه ی تحقیق در نظر گرفته شدند و به دو گروه آزمایشی و کنترل بصورت اتفاقی تقسیم شدند. اعضای گروه آزمایشی هر دو تکلیف ساده و پی...

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Journal of computer science and technology

سال: 2022

ISSN: ['1666-6046', '1666-6038']

DOI: https://doi.org/10.24215/16666038.22.e14